Quiet
  • HOME
  • ARCHIVE
  • CATEGORIES
  • TAGS
  • LINKS
  • ABOUT

Alex

  • HOME
  • ARCHIVE
  • CATEGORIES
  • TAGS
  • LINKS
  • ABOUT
Quiet主题
  • ideas

监督学习(Supervised Learning)详解

Alex.Y
Science

2025-07-30 10:55:00

监督学习(Supervised Learning)详解

一、核心理论

定义:
监督学习是一种机器学习范式,模型从带标签的数据集中学习输入(特征)与输出(目标)之间的映射关系。本质是通过训练数据建立预测模型:
y = f(X) + ε
其中:

  • X:输入特征(自变量)
  • y:输出标签(因变量)
  • f:学习的目标函数
  • ε:随机误差

核心要素:

  1. 训练数据:包含输入特征和对应标签的样本集合
    {(X₁, y₁), (X₂, y₂), ..., (Xₙ, yₙ)}
  2. 学习目标:构建预测函数 f̂ 来逼近真实函数 f
  3. 损失函数:量化预测值与真实值的差距(如均方误差、交叉熵)
  4. 优化过程:通过算法(如梯度下降)最小化损失函数

二、主要任务类型

任务类型 输出形式 目标 典型算法
分类 离散类别 预测类别标签 逻辑回归、SVM、决策树、KNN
回归 连续数值 预测数值 线性回归、多项式回归、随机森林

三、经典案例:糖尿病预测

问题描述:
根据患者医疗特征预测5年内是否患糖尿病(二分类问题)

数据集:Pima Indians Diabetes Dataset

  • 输入特征(X):
    • 怀孕次数
    • 血糖浓度
    • 血压
    • 皮脂厚度
    • 胰岛素水平
    • BMI指数
    • 糖尿病遗传函数
    • 年龄
  • 输出标签(y):
    • 0:未患病
    • 1:患病
# 1. 导入库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 2. 加载数据
#data = pd.read_csv('~/workspace/pythonProject/Diabetes/pima-indians-diabetes.data.csv')

url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
column_names = ['Pregnancies','Glucose','BP','SkinThickness','Insulin','BMI','Pedigree','Age','Outcome']
data = pd.read_csv(url, names=column_names)

X = data.drop('Outcome', axis=1) # 特征矩阵
y = data['Outcome'] # 目标标签

# 3. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)

# 4. 训练模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train) # 监督学习的核心:拟合特征与标签的关系

# 5. 预测评估 test_size=0.3,准确率0.75;0.2/0.74;0.1/0.66
y_pred = model.predict(X_test)
print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

# 6. 新患者预测
new_patient = [[2, 120, 70, 20, 80, 25.5, 0.8, 35]]
prediction = model.predict(new_patient)
print("患病风险: ", "高危" if prediction[0]==1 else "低危")

四、实际应用场景

  1. 金融领域:
    • 信用评分(分类)
    • 股票价格预测(回归)
    • 欺诈检测(分类)
  2. 医疗健康:
    • 疾病诊断(分类)
    • 药物反应预测(回归)
    • 医疗影像分析(分类)
  3. 工业领域:
    • 设备故障预测(分类)
    • 产品质量控制(回归)
    • 需求预测(时间序列回归)
  4. 自然语言处理:
    • 情感分析(分类)
    • 机器翻译(序列预测)
    • 命名实体识别(序列标注)
上一篇

LangChain

下一篇

Machine Learning

©2026 By Alex. 主题:Quiet
Quiet主题